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基于 节点 地 位 和 相似 性 的 社交 网 络 边 符号 预测 
卢 志 刚 ， 叶 美丽 


(上 海 海 事 大 学 经 济 管理 学 院 ， 上海 201306) 


摘 要 : 边 符号 预测 即 根据 网 络 拓扑 结构 挖掘 符号 相关 的 隐 含 信息 ， 站 在 揭示 用 户 之 间 的 潜在 关系 。 节 点 地 位 和 相 
似 性 能 够 较 好 地 体现 边 符号 属性 ， 为 改善 预测 效果 提供 了 理论 基础 。 通 过 探 完 二 者 与 边 符 号 属性 之 间 的 强 相关 性 ， 
建立 符号 预测 模型 。 首 先 ， 利 用 排序 算法 Prestige 评估 用 户 节 点 的 社会 地 位 ， 同 时 使 用 余弦 相似 度 表示 用 户 的 社交 
偏好 ; 然后 ， 在 逻辑 回归 学 习 模型 的 基础 上 融合 二 者 建立 边 符 号 预测 模型 LR-SN; 最 后 ， 在 模型 的 训练 过 程 中 采用 
随机 梯度 上 升 算 法 优化 求解 。 三 个 真实 网 络 数据 集 的 实验 结果 表明 ， 相 比 于 现 有 基准 方法 ，LR-SN 模型 的 符号 预测 
准确 率 显著 提高 且 具 有 一 定 的 推广 性 ， 说 明 通 过 融合 局 部 信息 与 全 局 信息 能 够 进一步 改善 预测 效果 。 

关键 词 : 边 符号 预测 ; 节点 地 位 ; 节点 相似 性 ; 逻辑 回归 ; 随机 梯度 上 升 算法 

中 图 分 类 号 : TP391 doi: 10.19734/j.issn.1001-3695.2018.07.0516 


Social network edge sign prediction based on node status and similarity 


Lu Zhigang, Ye Meili 
(College of Economics & Management, Shanghai Maritime University, Shanghai 201306, China) 


Abstract: The edge sign prediction is to mine the sign-related implicit information according to the network topology, 
aiming to reveal the potential relationship between users. Node status and similarity can better represent sign attributes of 
edges, providing a theoretical basis for improving the prediction effect. By investigating the strong correlation between the 
two theories and the sign attributes of the edges, a sign prediction model is established. Firstly, use prestige evaluate the 
social status of user nodes. At the same time, cosine similarity can represent the user's social preferences. Then, both sides 
are combined based on the logistic regression learning model to establish the edge sign prediction model LR-SN. Finally, a 
random gradient ascent algorithm will optimize the model during training. The experimental results of three real network 
datasets show that compared with the existing baseline methods, the accuracy of sign prediction of LR-SN model is 
significantly improved and has certain generalization, indicating that the fusion of local information and global information 
can further improve the prediction effect. 


Key words: edge sign prediction; node status; node similarity; logistic regression; random gradient ascent algorithm 


b) 在 逻辑 回归 学 习 模 型 的 基础 上 ， 融 合 节 点 地 位 和 相 


0 引证 似 性 建立 边 符号 预测 模型 LR-SN， 其 中 节点 地 位 从 全 局 角度 
社交 网 络 是 人 们 进行 意见 交流 与 信息 共享 的 虚拟 空间 ， 量化 符号 属性 相关 特征 ， 节 点 相似 性 从 局 部 角度 体现 符号 属 
其 允许 用 户 将 与 之 有 关联 的 个 体 标记 为 朋友 或 者 敌人 关系 ， 性 。 
对 他 人 的 言论 及 观点 提出 赞同 或 者 反对 意见 。 因 此 可 以 将 社 c) 为 证 明 LR-SN 模型 的 有 效 性 ， 在 Epinion、Slashdot、 
| 交 网 络 描述 为 边 具 有 正 或 者 负 符 号 属性 的 有 向 网 络 ， 其 中 正 ”Wikipedia 数据 集 上 建立 多 组 实验 , 并 详细 阐述 不 同 量化 策略 
外边 表示 两 个 用 户 之 间 具 有 朋友 、 人 信任、 喜欢 等 积极 关系 ; 对 符号 预测 准确 率 的 影响 。 
而 负 向 边 则 表示 两 个 用 户 之 间 具 有 敌对 、 怀 疑 、 厌 恶 等 消极 2 本 
关系 。 社 交 网 络 中 的 边 符 号 预测 即 通 过 提取 网 络 结构 信息 和 1 ”相关 性 研究 
社交 网 络 边 符号 的 研究 起 源 于 社会 心理 学 ， 起 初 由 


用 户 关 系数 据 预测 未 知 的 边 符号 ， 它 揭示 了 用 户 之 间 的 潜在 
关系 如 朋友 ， 防 生 人 ， 敌 人 等 。 Heider 等 人 四 从 心理 学 角度 出 发 ， 探 讨 了 人 际 交 往 中 正 关系 
边 符号 预测 在 机 器 学 习 、 大 数据 分 析 与 决策 等 领域 具有 与 负 关 系 的 相互 作用 模式 。 随 后 Cartwright 和 Harary 等 人 [9 
重要 的 研究 意义 。 探 究 边 的 符号 属性 有 助 于 理解 网 络 基 本 结 ”以 图 论 的 语言 将 社交 网 络 描述 为 边 具 有 正 负 符号 属性 的 有 向 
构 特征 癌 ， 解 决 个 性 化 推荐 户 、 与 情 分 析 品 、 异 常用 户 检测 内 网 络 。 随 着 复杂 网 络 的 兴起 ， 社 交 网 络 中 的 边 符号 预测 问题 
等 问题 。 本 文 深入 研究 边 的 符号 属性 ， 提 出 一 种 高 效 的 边 符 ”逐渐 成 为 研究 的 热点 。 


号 预测 模型 ， 并 在 Epinion、Slashdot、Wikipedia 数据 集 上 建 目前 ， 有 关 边 符号 预测 的 方法 大 致 分 为 两 类 : 考虑 局 部 
立 多 组 实验 ， 结 果 证 明了 该 模型 在 符号 预测 方面 的 有 效 性 。 特征 的 方法 和 考虑 全 局 特征 的 方法 。 考 虑 局 部 特征 的 方法 仅 
主要 页 献 如 下 : 仅 利用 节点 的 领域 特征 如 节点 出 入 度 趾 ， 共 同 邻 居 数 量 吕 ， 
a) 提出 两 个 有 关 符 号 属性 的 量化 策略 ， 分 别 量化 节点 地 ”节点 相似 性 9 等 进行 边 符号 预测 。 而 考虑 全 局 特征 的 方法 扩 
位 以 及 相似 性 。 大 了 特征 提取 的 范围 ， 从 全 局 角度 量化 网 络 的 不 平衡 程度 ， 
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一 般 采 取 扩 展 的 结构 平衡 理论 中、 上 下 文 信息 0 乌 、 节 点 排 
序 0 等 措施 对 边 符号 进行 预测 。Leskovec 等 人 中 对 符号 预测 
问题 进行 了 形式 化 定义 ， 其 通过 提取 两 类 网 络 结构 信息 : 节 
点 邻 域 特征 以 及 基于 社会 学 理论 的 16 种 三 元 组 关系 模式 , 然 
后 利用 逻辑 回归 训练 特征 实现 了 边 符号 预测 。Chiang 等 人 09 
提出 利用 扩展 的 结构 平衡 有 序 长 环 对 边 符号 进行 预测 ， 实 验 
表明 当 环 的 长 度 由 3 递增 到 5 时 ， 预 测 准确 率 有 效 提高 。 该 
方法 实现 了 对 Leskovec 等 人 局 部 度量 方法 的 扩展 。 
Symeonidis 等 人 中 通过 定义 同一 簇 之 间 的 相似 性 与 不 同 簇 之 
间 的 相似 性 , 然后 利用 推荐 算法 实现 了 边 符 号 预测 。 Shahriari 
和 Jalili 等 人 03 提 出 将 排序 算法 引入 到 特征 值 的 计算 当中 ， 
其 首先 利用 各 类 排序 算法 对 网 络 中 的 节点 进行 排序 ， 然 后 基 
于 该 节点 排序 值 计 算 特征 ， 该 方法 实现 了 从 全 局 角度 体现 边 
符号 属性 。 
网 络 中 的 局 部 信息 与 全 局 信息 联系 密切 ， 但 边 符号 预测 
仅 使 用 二 者 之 一 是 不 够 全 面 的 。 针 对 以 上 问题 ， 本 文 在 逻辑 
可 归 学 习 模型 的 基础 上 ， 通 过 引入 节点 地 位 与 相似 性 两 种 量 
化 策略 ， 实 现 局 部 信息 与 全 局 信息 的 融合 ， 从 而 解决 由 于 网 
络 稀 玻 ， 局 部 特征 利用 不 足 导致 的 预测 准确 率 较 低 等 问题 。 


2 ”问题 形式 化 描述 


将 社交 网 络 用 一 个 有 向 网 络 图 来 表示 ， 记 为 GV,E,5)， 
其 中 V= 生 3.…n) 代表 社交 网 络 中 节点 用 户 的 集合 ， 
E={1,2,.…m} 代表 网 络 中 节点 用 户 之 间 关 系 的 边 集合 ， 
$5={1,-40} 代表 边 符 号 。 eli,jjeE ，s(i, 间 eS， 其 中 
si 四 =1 代 表 “+”, 表示 节点 i 和 节点 j 之 间 具 有 信任 , 合作 ， 
友好 ， 支 持 等 积极 关系 ; sli 站 =-1 代 表 “-”， 表 示 两 个 节 
点 之 间 具 有 不 信任 、 敌 对 、 讨 厌 、 否 决 等 消极 关系 ; s(i, 站 =0 
表示 节点 i 与 节点 j 之 间 的 互动 关系 未 知 。 
利用 上 述 符号 与 定义 ， 对 社交 网 络 下 的 边 符号 预测 问题 
作 如 下 定义 : 设计 一 个 符号 预测 框架 上 ， 通 过 提取 网 络 结构 
信息 结合 已 知 的 用 户 之 间 的 关系 数据 来 预测 网 络 中 的 边 符 
号 ， 即 给 定 一 个 社交 网 络 G(V,E,5) ， 通 过 学 习 符 号 预测 框架 
7/ ， 预 测 未 知 的 正 负 关系 s(i, 站 ， 即 
f=G(V,E,S) 一 SG 让 (1) 


3 ”节点 地 位 和 相似 性 量化 


实证 发 现 ， 边 符号 属性 与 节点 的 地 位 和 相似 性 息息相关 
[9 二 者 在 一 定 程度 上 能 够 体现 出 用 户 在 网 络 中 的 受 欢迎 程 
度 以 及 社交 人 和 偏好。 因此， 利用 节点 地 位 和 相似 性 来 设计 符号 
预测 框架 7 ， 并 在 此 基础 上 提出 两 个 有 关 符 号 属性 的 量化 策 
略 。 
3.1 节点 地 位 

利用 网 络 中 节点 的 地 位 差异 能 够 标记 边 的 符号 09。 有 具体 
而 言 ， 由 i 指向 /的 正 边 代表 j 的 地 位 比 i 高 ， 由 i 指向 j 的 
负 边 代表 j 的 地 位 低 于 i， 这 种 地 位 高 低 关 系 具有 传递 性 [9。 
网 络 拓扑 结构 可 以 用 来 评估 节点 用 户 的 社会 地 位 。 在 社交 网 
络 中 ， 正 向 边 入 度 有 助 于 提高 节点 的 社会 地 位 ， 负 向 边 入 度 
相反 会 降低 节点 的 社会 地 位 ， 由 此 提出 引入 考虑 边 符号 属性 
的 节点 地 位 量化 策略 -Prestige 来 评估 用 户 的 社会 地 位 。 
Prestige [2 仅仅 考虑 网 络 结构 中 节点 的 正 负 向 边 入 度 。 
如 果 一 个 节点 收 到 很 多 来 自 其 他 节点 的 正 向 边 ， 说 明 该 节点 
在 网 络 中 具有 较 高 的 地 位 和 威望 。 相 反 的 ， 如 果 该 节点 收 到 
很 多 来 自 其 他 节点 的 负 向 边 ， 说 明 它 在 网 络 中 的 地 位 和 信誉 
较 低 。 节 点 i 的 Prestige 值 (Pr ) 计算 如 下 : 
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LA ， 
[Ni |+ IN| 2) 


其 中 : Ni|， 了 Ni | 分别 表示 节点 i 的 正 向 边 入 度 以 及 负 向 边 


入 度 。Prestige 值 越 高 ， 该 节点 具有 越 高 的 威望 和 地 位 ， 其 在 
网 络 中 越 容 易 被 信任 。 相 反 ， 若 Prestige 值 较 低 ， 则 该 节点 


较 难 被 其 他 节点 信任 。 
3.2 节点 相似 性 


Ar [8 


付 写 


有 类 似 偏好 的 用 户 倾向 给 予 社交 网 络 中 的 边 类 似 的 
。 节 点 相似 性 能 够 大 致 反映 网 络 中 


户 的 社交 偏好 。 


对 于 待 预测 边 符 号 的 相关 节点 ， 通 过 计算 源 节点 与 目的 节点 


的 邻居 节点 之 间 的 平均 相似 度 ， 能 够 


售 断 出 源 节 点 给 予 目的 


节点 正 向 边 或 者 负 向 边 的 可 能 性 。 直 观 理 解 ， 如 果 用 户 i 与 


给 予 用 
则 有 很 大 的 可 能 性 给 予 


户 j 正 向 边 的 用 户 均 具有 较 高 的 相似 度 ， 那 么 用 户 i 


j 户 j 正 向 边 。 相 反 ， 如 果 用 户 i 与 


给 予 用 


上 
让 j 负 向 边 的 用 户 具有 较 高 的 相似 度 ， 则 用 户 i 有 很 
大 的 可 能 性 给 予 用 户 j 负 向 边 。 


1 5 表示 节点 i 指向 节点 ? 


的 边 符 号 ，7 表示 节点 i 和 节点 上 
j 户 节点 之 间 的 相似 性 ， 


度 来 计算 | 


Sim(i,k)= 


邻居 节点 ,使 用 余弦 相似 
Sim(i,k) 的 定义 如 下 : 


Ds Tiplkp 


RR (3) 
a 
基于 已 知 的 社交 网 络 拓扑 信息 ， 


通过 节点 相似 性 量化 用 


户 i 对 用 户 j 给 予 正 向 边 的 可 能 性 57G,7: 


Dy Sim(i, k) 


SG ))= WW (4) 
相反 ， 用 户 i 对 用 户 j 给 予 负 向 边 的 可 能 性 57Ci,7: 
Su ~ Dw Sim(i,k) 
S 和 (5) 
其 中 : W* ，W- 分 别 表 示 与 节点 j 产生 正 向 边 以 及 负 向 边 的 


-二 上 储 
HD 点 集 = 


| 表示 集合 的 数量 。 


4 ” 边 符 号 预测 模型 及 优化 算法 


以 节点 地 位 和 相似 性 作为 模型 建立 的 基准 
9 的 边 符 号 预测 方法 基础 上 ， 分 别 建立 相应 量化 策略 的 边 


口 


ws 


符号 预测 模型 。 


， 在 基于 逻辑 


4.1 基于 逻辑 回归 的 边 符号 预测 LR 


不 : 


逻辑 回归 是 一 种 有 监督 的 统计 学 习 方法 ， 其 将 社交 网 络 
中 的 正 负 关系 预测 视 为 二 元 分 类 问题 。 运 | 行 

预测 首先 要 构建 边 符号 属性 相关 的 特征 集 ， 然 后 将 特征 集 作 
为 输入 ， 训 练 分 类 器 实现 正 负 关系 预测 ， 其 具体 形式 如 下 所 


Ar 


符号 


该 算法 进 


h(x) = g(0 = 一 一 天 (0) 
1+e 
P(y=1|x;0)= hy (x) (7) 
P(y=0|x:0) =1-h (2) (8) 
其 中 x= (xo,xi,x.…) 表 示 从 社交 网 络 中 提取 的 特征 向 量 ， 一 般 
要 求 该 向 量 在 一 定 程度 上 体现 边 的 符号 属性 。 9= 9.9.2.) 


表示 赋予 每 个 特征 的 权重 向 量 ， 其 通过 最 大 似 然 法 估计 。 


> 表示 要 预测 的 边 ， 有 
正 号 ，y=0 时 预测 边 为 负 号 


0,1 两 种 取 值 。 当 y=1 时 预测 边 为 
。 PO=1|*%9) 表示 当 预 测 边 y=! 时 


的 概率 。 一 般 情 况 下 ， 当 P(y=1|x*0)>0.5 时， 预测 边 ”的 数值 


为 1 即 正 号 ， 当 P(y=1|x;0)< 


05 时 ， 预 测 边 ”的 数值 为 0 即 负 
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为 了 模拟 节点 地 位 用 于 边 符 号 预测 ， 尝 试 利用 节点 地 位 
与 边 符号 属性 之 间 的 强 关 联 性 建立 基于 节点 地 位 的 边 符号 预 
测 模 型 LR-S。 同时 , 为 了 强调 节点 地 位 在 边 符号 预测 过 程 中 
的 重要 性 ， 以 其 为 基准 提出 了 四 种 节点 地 位 量化 特征 。 这 些 
特征 实现 了 从 全 局 角度 量化 每 个 用 户 节 点 的 社会 地 位 以 及 乐 
观 程度 ， 较 大 程度 反映 了 边 的 符号 属性 。 

节点 地 位 量化 特征 包括 Rep; ，Opt;，Rep;，0pt; 等 四 个 特 
征 值 ， 分 别 表示 节点 i 的 信誉 值 ， 乐 观 值 以 及 节点 /的 信誉 
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P(y=1|x:0) =h,(x) = 1 
4.2 ”基于 节点 地 位 的 边 符号 预测 模型 LR-S A ~ 


4.3 基于 节点 地 位 和 相似 性 的 边 符号 预测 模型 LR-SN 
节点 地 位 虽然 能 够 从 全 局 角度 量化 符号 属性 相关 特征 ， 
但 仍旧 存在 局 限 。 其 一 ， 当 两 个 用 户 的 社会 地 位 差距 不 大 时 ， 
影响 ， 其 二 ， 节 点 地 位 重点 关注 网 络 中 
忽视 了 局 部 信息 。 实 证 发 现 ， 当 网 络 聚 类 系 
息 反 而 能 够 获得 较 全 局 信息 更 高 的 预测 准 
建立 基于 节点 地 位 的 边 符号 预测 模型 时 ， 不 


的 全 局 信息 ， 
数 较 高 时 ， 
确 率 。 因 此 ， 


zlll 

< DK 导 
i 
I 


上 甘 
Ds 
可 
到 
站 


值 ， 乐 观 值 。 在 特征 值 的 计算 过 程 中 ， 首 先 使 用 节点 地 位 量 
化 策略 -Prestige 评估 每 个 用 户 节点 的 社会 地 位 ， 然 后 基于 该 
算法 得 到 的 Prestige 值 来 计算 边 符 号 预测 相关 节点 的 信誉 值 
与 乐观 值 。 

节点 i 的 信誉 值 ， 乐 观 值 被 定义 为 如 下 : 


2 KEIN+ Pr, 六 KEIN7 Pr ( 9) 
> Pr 下 i Pr 


Rep, = 


Dn Pe Dra Pr 
keOUT, KEOUT 


ed Pr+ do Pr 
节点 7 的 信誉 值 ， 乐 观 值 定义 如 下 : 


De Pr.— 2 Pr, (GD 
> kelN} Pr+ en Pr 


Sib Pn.— eo Pr 


pe 了 + De Pr. 


其 中 :Pr 是 节点 的 排序 分 数 ， 该 值 通过 式 (2) 计算 得 出 。 
IN? , IN; 分 别 表 示 对 节点 i 给 出 正 向 边 以 及 负 向 边 的 节点 集 
合 ; OUT* ,0UT 分 别 表示 收 到 节点 i 给 出 的 正 向 边 以 及 负 问 


边 的 节点 集合 。 类 似 的 ， Wi, IN; , 0UT; , 0UT; 表述 同上 。 


节点 的 信誉 值 体现 了 该 节点 在 网 络 中 的 受 欢 迎 程度 ， 它 
能 够 衡量 其 在 朋友 圈 的 接受 度 以 及 在 社会 中 的 号 召 力 。 信 誉 
值 越 高 的 节点 ， 甚 地 位 及 影响 力 越 高 ， 网 络 中 其 他 节点 给 予 
该 节点 正 向 边 的 概率 也 就 越 大 。 相 反 ， 乐 观 值 体现 了 该 节点 
对 网 络 中 其 他 节点 给 予 积极 友好 互动 关系 的 倾向 ， 这 在 一 定 
程度 上 说 明了 该 节点 的 自身 性 格 一 “乐观 友好 型 ”。 乐 观 值 
越 高 ， 该 节点 给 予 其 他 节点 正 号 边 的 可 能 性 越 大 。 


Opt, 


(10) 


Repi = 


Op = (12) 


仅 要 将 两 个 用 户 之 间 的 社会 地 位 差异 考虑 进来 ， 还 需 结合 体 
现 局 部 信息 的 节点 相似 性 来 克服 其 在 符号 预测 方面 的 局 限 
性 。 由 此 提出 建立 基于 节点 地 位 和 相似 性 的 边 符号 预测 模型 


LR-SN。 相 比 于 LR-S, 该 模型 在 其 基础 上 又 创新 的 提出 了 四 

种 节点 相似 性 量化 特征 。 这 些 特征 实现 了 从 局 部 角度 量化 每 

个 用 户 的 属性 及 偏好 ， 并 进一步 体现 了 边 符号 属性 。 
节点 相似 性 量化 特征 ， 包 括 源 节点 正 相 似 度 ， 源 节点 负 


相似 度 ， 目 的 节点 正 相 似 度 以 及 目的 节点 负 相 似 度 ， 具 体 定 
义 如 下 : 
a) 源 节点 正 相 似 度 s%i 让 .节点 i 和 给 j 正 向 边 的 节点 之 


间 的 平均 相似 度 。sii, 站 的 值 越 高 , 意味 着 节点 i 指向 节点 j 
的 边 是 正 号 的 可 能 性 越 大 。 shi 站 的 计算 如 下 : 


Dl Sim, (i,k) 
Ww 


out 


其 中 :Wi 是 对 节点 j 给 出 正 向 边 的 节点 集合 ， Sim(i,k) 是 节 
点 i 与 给 j 正 向 边 的 节点 之 间 的 相似 度 ， 具 体 公式 如 下 : 


Saki, = (14) 


Sim, = (15) 


其 中 :加 和 和 分 别 是 节点 i 与 分 别 指向 节点 ? 的 边 符号 ， 
I 是 节点 i 与 上 均 给 出 边 的 节点 集合 。 

b ) 源 节点 负 相似 度 ski .节点 i 和 给 j 负 向 边 的 节点 之 
间 的 平均 相似 度 。 si 的 值 越 高 ， 节 点 i 指向 节点 /的 边 
是 负 号 的 概率 越 大 。 si 的 公式 定义 为 如 下 : 


SaJD= 一 = jm (16) 

其 中 :Wi 是 给 节点 j 负 向 边 的 节点 集合 ，Sim(i,k) 是 节点 i 和 
之 间 的 相似 度 ， 由 式 (15) 计算 。 

coc) 目的 节点 正 相 似 度 sii 让 .节点 7 和 从 i 接收 正 向 边 的 


信誉 值 与 乐观 值 之 间 的 逻辑 关系 如 图 1 所 示 ， 信 誉 值 仅 
考虑 与 节点 i 的 入 边 相 关 的 节点 集合 ， 并 计算 该 集合 中 所 有 
节点 的 Prestige 值 。 相反 ,乐观 值 仅 考虑 与 节点 i 的 出 边 相 关 
的 节点 集合 以 及 该 集合 中 所 有 节点 的 Prestige 值 。 


图 1 节点 地 位 量化 特征 示意 区 
Fig.1 Status theory quantitative feature diagram 

在 基于 逻辑 回归 的 符号 预测 方法 基础 上 ， 通 过 引入 四 种 

节点 地 位 量化 特征 作为 特征 集 输 入 ， 进 而 实现 模型 扩展 。 

此 ，LR-S 模型 可 以 定义 为 如 下 : 


节点 之 间 的 平均 相似 度 。siKj,? 的 值 越 高 ， 节 点 7 收 到 来 自 节 
点 i 的 正 向 边 的 概率 越 大 。 siLj? 的 公式 定义 为 如 下 : 
DG) 

wi 
其 中 :Wi 是 节点 i 给 出 正 向 边 的 节点 集合 ，Sim,(j, 有 ) 是 节点 j 
与 之 间 的 相似 度 。 Sim,,(j,) 的 计算 公式 如 下 : 


SiCPD= (17) 


>» Per Tp,jTpk 


Sim, (j,k)= 


pa » 
其 中 : 5; 和 x 分别 代 表 从 节点 ? 指 问 节点 j 与 上 的 边 符号 ， 
态 是 节点 了 与 上 均 从 中 接收 边 的 节点 集合 。 
d) 目 的 节点 负 相 似 度 5s;, .节点 7 了 和 从 i 接收 负 向 边 的 
节点 之 间 的 平均 相似 度 。 sd, 的 值 越 高 ， 节 点 j 将 有 更 大 
概率 收 到 来 自 节 点 i 的 负 向 边 。 si 的 公式 定义 为 如 下 : 
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其 中 : W; 是 节点 i 给 出 负 向 边 的 节点 集合 ， 


等 : 基于 节 


Dy Sim (j,k) 


Sikj,D= - 
[Ww 


(19) 


Sim,(j,k) 是 节点 j 


与 上 之 间 的 相似 度 ， 由 式 (18) 计算 。 


四 种 节点 相似 性 量化 特征 之 间 的 逻辑 关系 如 图 2 所 示 。 


在 基于 逻辑 回归 的 边 符号 预测 基础 上 ， 融 合 节 点 地 位 和 相似 


性 建立 边 符 号 预测 模型 。 


节点 的 社会 


也 位 以 及 乐观 程度 ， 


节点 地 位 量化 特征 从 全 局 角度 反映 
节点 相似 性 量化 特征 从 局 部 


角度 反映 节点 属性 及 偏好 。 通 过 合并 二 者 作为 特征 集 输入 ， 


实现 模型 的 进 


P(y=1|x;0)=h,(x)= 


步 扩展 。LR-SN 模型 定义 如 下 : 


(0 0 Rep, tO Rep ,+O Op +O Opt) + 
OS i D+OsSoual i D+OSECGD+OSD) 


(20) 


l+e 


图 2 


Fig. 2 
4.4 优化 算法 


针对 节点 地 位 与 相似 怕 


节点 相似 性 量化 特征 示意 图 


Node similarity quantization feature diagram 


E 分 别 建立 基于 节点 地 位 的 边 符 


号 预测 模型 LR-S 以 及 结合 节点 地 位 和 相似 性 的 边 符 号 预测 


模型 LR-SN， 其 中 节点 地 位 从 全 所 


度量 化 符号 属性 相关 特 
通过 合并 二 者 作 


为 特征 集 输 入 , 采 | 
问题 。 在 模型 的 训 


解 。 该 算法 在 每 次 迭代 过 程 中 仪 根据 随机 选择 的 一 
更 新 权重 向 量 ， 相 比 于 传统 的 梯度 上 升 算法 ， 计 算 量 大 大 降 
低 ， 训 练 速度 更 快 。 
(8) 合并 得 到 一 个 样本 的 代价 函数 ， 形 式 如 


将 式 (7) 
下 


Cost (h(x),y) = ha) 


征 ， 节 点 相似 性 从 局 部 角度 体现 符号 属性 。 


] 式 (6) 的 逻辑 
练 过 程 中 ， 使 ) 


归 方法 建 模 边 符号 预测 
随机 梯度 上 升 算法 优化 求 
个 样本 来 


(21) 


代价 函数 被 
一 个 样本 ， 即 可 通 


来 估计 预测 值 与 实际 值 过 


间 的 误差 。 给 定 
过 代价 函数 求 出 该 样本 所 属 类 别 的 概率 。 


假定 每 个 样本 之 间 彼 此 独立 ， 那 么 整个 样本 集 发 生 的 概率 即 
为 所 有 样本 发 生 概率 的 乘 
则 得 到 整个 样本 集 的 代价 函数 ， 形 式 如 下 : 


7(0)= ypDw log(h, x) +(—y")logd -h(x"))] 


只。 为 了 方便 求解 ,对 该 式 对 数 化 ， 


(22) 


其 中 : m 为 样本 总 数 ，y" 表示 第 i 个 样本 的 符号 ，x® 表示 第 i 


个 样 

M ee 0 值 ， 使 用 随机 梯度 上 
升 算 法 优化 求解 ， 其 迭代 公式 如 下 : 

w= 人 +0.01 (23) 

是， = hx je{0,1,2,..,8} (24) 

DOAHaO -h(x Dx (25) 


其 中 :为 迭代 次 数 ， 
更 新 的 幅度 。 


在 训练 过 程 中 步 长 < 的 选取 至 关 重 要 ， 若 “ 取 


a 为 步 长 ， 也 就 是 学 习 速 率 ， 用 来 控 币 


Ye 
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值 过 大 将 导致 结果 不 收敛 甚至 出 现 发 散 等 现象 ; 若 x 取 值 过 
小 则 会 使 得 迭代 次 数 增 多 ， 收 敛 速度 缓慢 。 为 了 使 得 算法 稳 
步 进 行 ， 令 “在 每 次 迭代 过 程 中 减少 L7J+E ， 从 而 有 效 解决 
固定 步 长 引起 的 在 最 优 值 附 近 波 动 等 问题 。 具 体 步 又 如 算法 
1 所 示 。 

算法 1 LR-SN. 

输入 : 社交 网 络 G(V,E,5S) 

输出 : sG, 亡 
. 依据 式 (2) 计算 每 个 节点 的 Prestige 值 
. 依据 式 (9) - 式 (12) 计算 节点 地 位 量化 特征 
. 依据 式 (14) - 式 (19) 计算 节点 相似 性 量化 特征 
. 输入 训练 样本 集 
. While 不 收敛 do 


和 


an 上 PP 一 


计算 pr +0.01 
十 了 十 


更 新 90; 全 0,+Q 


a 


. end while 
5 ”实验 分 析 


5.1 数据 集 描述 
通过 在 三 个 真实 世界 数据 集 (Epinion ，Slashdot ， 

Wikipedia， 数 据 集 可 以 从 Snap 网 站 上 下 载 ) 上 进行 实验 来 
验证 所 提出 模型 的 有 效 性 。 其 中 Epinion 是 一 个 在 线 评 论 网 
站 , 在 网 络 中 , 人们 用 1 和 -1 等 符号 表示 他 们 对 彼此 的 看 法 。 
Slashdot 是 一 个 技术 新 闻 网 站 ， 用 户 在 网 站 上 可 以 将 对 方 标 
记 为 敌人 或 者 朋友 。 维 基 百 科 是 由 世界 各 地 的 志愿 者 创建 的 


著名 百科 全 书 ， 其 管理 人 员 通 过 投票 选举 产生 ， 用 户 可 以 通 
过 投票 表示 赞成 或 者 反对 该 候选 人 。 表 1 给 出 了 三 个 真实 数 
据 集 的 统计 特征 。 
表 1 数据 集 统计 信息 
Table 1 Data set statistics 
属性 Epinion Slashdot Wikipedia 
节点 131828 77350 7065 
边 841372 516575 103561 
正 边 (%) 85% 77% 78.7% 
负 边 (%) 15% 23% 21.3% 
平均 聚 类 系数 0.1279 0.0549 0.0691 
表 1 的 统计 结果 显示 ， 三 个 网 络 中 负 号 边 的 占 比 均 在 
25 驳 以下， 网 络 中 负 号 边 的 数量 远 远 小 于 正 号 边 的 数量 。 
心理 学 和 社会 学 可 知 ,出 于 礼貌 举止 或 者 害怕 被 报复 等 心理 ， 


人 们 在 社交 网 络 中 很 少 对 其 他 用 户 表现 出 反感 讨厌 等 情绪 。 


此 外 ， 三 个 网 络 中 Epinion 的 平均 聚 类 系数 最 高 ， 表 明 其 节 
点 分 布 最 密集 ， 其 次 为 Wikipedia，Slashdot 的 网 络 聚 类 系数 
最 低 。 


5.2 实验 设置 与 评价 指标 

数据 集 统计 信息 可 知 ， 三 个 网 络 数据 集中 正 号 边 与 负 
号 边 分 布 极 不 均匀 ， 这 将 导致 符号 预测 的 准确 率 具 有 较 低 的 
可 信和 度 。 为 此 ， 实 验 过 程 中 采取 随机 抽样 的 方法 将 数据 集 分 
成 训练 集 与 测试 集 两 部 分 ， 依 次 随机 选择 10%、30%、 
50%、...、90% 的 数据 集 用 于 训练 ,剩余 的 90%、70%、50%、...、 
10% 的 数据 集 用 于 测试 .另外 ,为 了 保证 预测 结果 的 可 靠 性 ， 
将 上 述 实 验 重复 5 次 取 平 均值 。 
使 用 精确 度 (accuracy) 来 评价 预测 算法 对 边 符号 的 预 
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测 准 确 率 ， 如 式 (26〉 所 示 。 同 时 ， 利 用 混淆 矩阵 来 表示 预 
测 结果 ， 如 表 2 所 示 。 098 
0.96 
Amo -而 7 区 | 
表 2， 混 淆 矩阵 入 092 一 -一共 
Table 2 Confusion matrix & 3 ee 
prediction 生 
real vale positive negative 并 88 
Positive TP(true positive) FN(flase positive) Ey 
Negative FN(flase positive) TN(true negative) OS 
5.3 边 符号 预测 模型 对 比 效果 i 
为 了 证 明 所 提出 边 符号 预测 模型 的 有 效 人 性 ， 将 LR-S 模 
型 以 及 LR-SN 模型 与 以 下 三 种 基准 方法 进行 比较 。 (a) Epinion 数据 集 
a) Status 方法 。 该 方法 是 基于 节点 地 pe (a) Epinion dataset 
间 的 强 关 联 性 而 定义 的 ， 其 依照 待 预测 两 个 用 户 之 间 的 社会 
人 2 
是 正 号 ;， 负 向 地 位 差距 越 大 ， 其 边 符 号 越 有 可 能 是 负 号 。 人 
b) Balance 方法 。 该 方法 是 基于 结构 平衡 理论 加 与 边 符 _ 087 a ee 
号 属性 之 间 的 强 关联 性 定义 的 。 在 进行 符号 预测 时 ， 根 据 待 0.85 一 人 一 S 
测 边 所 在 三 元 组 的 结构 平衡 性 即 可 推断 出 边 符 号 。 该 理论 依 0.83 ey 
据 朋 友 的 朋友 是 我 的 朋友 ,敌人 的 朋友 是 我 的 敌人 07 等 直观 旦 0.81 
认识 ， 判 定 当 三 角形 拥有 奇数 个 正 号 边 时 结构 平衡 。 om 
c) LR 方法 加 该 方法 是 基于 节点 地 位 与 结构 平衡 理论 所 7 a 
出 的 ， 主 要 从 网 络 中 提取 两 类 特征 。 第 一 类 特征 为 度 特征 ， ud 
包括 节点 的 总 出 度 必 O 、 正 出 度 心 O 、 负 出 度 局 ， 节 10% 30% 50% 70% 90% 
点 六 的 总 入 度 d(7)、 正 入 度 吉 (站 、 负 入 度 di(j)) ， 以 及 节点 
i 和 j 的 共同 邻居 数量 C(i, 站 。 第 二 类 特征 为 三 元 组 特征 ， 包 (b)Slashdot 数据 集 
括 了 待 测 边 所 处 的 十 六 种 不 同形 式 的 三 元 组 。 将 以 上 两 类 特 (b) Slashdot dataset 
征 基于 逻辑 回归 方法 进行 训练 ， 从 而 实现 符号 预测 。 
在 Epinion，Slashdot 和 Wikipedia 三 大 数据 集 上 分 别 使 0.88 
用 上 述 方法 进行 符号 预测 ， 实 验 对 比 结果 如 图 3 所 示 。 0.86 a 
通过 分 析 图 3 (a) (b) (c) 可 以 看 出 : 0.84 
a) LR-S 模型 和 LR-SN 模型 的 符号 预测 精确 度 均 高 于 其 oaz 7 i 
他 基本 方法 ， 尤 其 是 明显 高 于 Status 方法 和 Balance 方法 ， 三 08 ty 
说 明 节 点 地 位 和 相似 性 量化 策略 的 有 效 性 。 此 外 ， 与 LR-S E 人 
模型 以 及 LR 方法 相 比 ，LR-SN 模型 在 实验 中 表现 最 好 ， 预 O78 
测 ; 机 | LR-S 模型 0.73%， 高 于 LR 方法 3.32%。 和 
说 明 通 过 结合 节点 地 位 与 相似 性 实现 局 部 信息 与 全 局 信息 的 1 
融合 ， 能 够 有 效 提高 符号 预测 准确 率 。 og 
b) 从 LR-S 模型 和 LR-SN 模型 的 对 比 结果 可 以 发 现 ， 
将 考虑 局 部 信息 的 节点 相似 性 量化 特征 加 入 特征 集 后 ， 预 测 (Wikipedia 数据 集 
准确 率 得 到 了 改善 。 例 如 在 Epinion 数据 集中 ，LR-SN 模型 (c) Wikipedia dataset 
在 训练 集 5 比 为 90% 时 的 预测 精确 度 为 96.31%, 相 较 于 LR-S 图 3 不 同 符号 预测 方法 对 比 结果 
模型 提高 了 1.29%。 在 其 他 两 个 数据 集 上 ， 其 改善 效果 没有 Fig.3 Comparison of different sign prediction methods 
Epinion 数据 集 明 显 ， 分 析 其 原因 ， 可 能 是 因为 Slashdot 和 此 外 ， 实 验 中 还 对 LR-S 模型 以 及 LR-SN 模型 的 泛 化 能 
Wikipedia 数据 集 较 为 稀疏 ， 网 络 中 能 获取 的 局 部 信息 较 少 。 力 进行 了 测试 。 运 用 3 组 数据 集训 练 的 两 种 模型 均 体 现 出 较 
c) 通过 比较 Status 方法 和 Balance 方法 发 现 ，Balance 好 的 泛 化 能 力 ， 如 表 3、4 所 示 。 
方法 在 三 个 数据 集中 的 表现 均 优 于 Status 方法 , 其 中 Epinion 表 3 符号 预测 模型 I-s 的 泛 化 能 力 《〈 训 练 集 占 比 90% ) 
数据 集 的 对 比 效果 尤为 明显 。 这 在 某 方 面 说 明了 考虑 局 部 信 Table 3 Generalization ability of the sign prediction model LR-S 
息 的 方法 在 符号 属性 方面 的 预测 效果 要 优 于 考虑 全 局 信息 的 (training ratio 90%) 
方法 ， 尤 其 是 在 网 络 较 为 密集 的 情况 下 。 男 外 ， LR 方法 也 训练 集 测试 集 
获得 了 较 好 的 预测 效果 ， 该 方法 综合 考虑 了 地 位 理论 与 结构 Epinion Slashdot Wikipedia 
平衡 理论 ， 相 较 于 Status 方法 和 Balance 方法 ， 其 预测 精确 Epinion 95.02% 94.89% 94.77% 
度 显 著 提高 ， 进 一 步 验 证 了 通过 融合 全 局 信息 和 局 部 信息 能 Slashdot 89.94% 90.12% 89.65% 
够 有 效 提高 预测 精确 度 。 Wikipedia 88.63% 88.48% 88.75% 
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表 4 符号 预测 模型 T-sn 的 泛 化 能 力 〈 训 练 集 占 比 90% ) 面 验证 了 将 网 络 中 的 局 部 结构 信息 和 全 局 结构 信息 融合 有 助 

Table 4 Generalization ability of the sign prediction model LR-SN 于 提高 符号 预测 准确 率 ; 另 一 方面 也 说 明了 节点 地 位 量化 策 

(training ratio 90%) 各 与 节点 相似 性 量化 策略 对 符号 预测 的 有 效 性 。 

测试 集 b) LR-S 模型 与 LR-N 模型 在 三 个 数据 集中 均 获 得 了 较 

We Epinion Slashdot Wikipedia 高 的 预测 效果 , 其 中 LR-S 模型 在 Slashdot 和 Wikipedia 数据 
Epinion 96.31% 96.05% 95.74% 集中 表现 更 好 ， 而 LR-N 模型 在 Epinion 数据 集中 表现 更 好 。 

Slashdot 90.56% 90.81% 90.29% 分 析 其 原因 , 可 能 是 因为 三 大 数据 集中 ,Epinion 的 聚 类 系数 

Wikipedia 838.74% 88.42% 88.96% 最 高 也 最 为 密集 ， 对 于 考虑 局 部 信息 的 节点 相似 性 其 能 获得 
5.4 不 同 量化 策略 对 边 符 号 预测 的 影响 的 有 效 信息 更 多 。 而 Slashdot 和 Wikipedia 数据 集 较为 稀疏 ， 

为 了 进一步 验证 节点 地 位 以 及 相似 性 对 边 符号 预测 模 ”因此 考虑 全 局 信息 的 节点 地 位 更 占 优势 。 


型 的 影响 ， 实 验 中 还 将 节点 相似 性 量化 特征 单独 作为 特征 身 


7 


6 ”结束 语 


输入 ， 并 运用 逻辑 回归 进行 符号 预测 ， 将 该 模型 记 为 LR-N。 
然后 分 别 将 LR-S, LR-N 以 及 LR-SN 三 种 模型 进行 比较 。 比 本 文通 过 探索 节点 地 位 以 及 相似 性 二 者 与 边 符号 属性 
对 实验 结果 如 图 4 所 示 。 之 间 的 强 相 关 性 ， 运 用 逻辑 回归 方法 LR 实现 了 社交 网 络 中 
的 边 符号 预测 问题 。 并 针对 二 者 分 别 建立 基于 节点 地 位 的 边 
ee 符号 预测 模型 LR-S 以 及 结合 节点 地 位 与 相似 性 的 边 符号 预 


剖 (Accuracy) 


De 测 模型 LR-SN， 其 中 节点 地 位 从 全 局 角度 量化 符号 属性 相关 
> 特征 ， 节 点 相似 性 从 局 部 角度 体现 符号 属性 。 三 个 真实 网 络 
0.94 2 数据 集 的 实验 结果 表明 ， 所 提 模 型 相 比 于 现 有 基准 方法 ， 符 
六 093 0 号 预测 精确 度 显著 提高 ， 且 具有 一 定 的 推广 性 。 如 何 进一步 
江 092 探索 符号 属性 相关 的 影响 因素 ， 并 且 使 用 更 多 的 真实 网 络 数 


0.91 据 集 来 验证 模型 性 能 ， 是 接 下 来 的 研究 重点 。 
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